Die Aussagen/Ergebnisse der deskriptiven Statistik gelten nur für die jeweils zugrundeliegende Menge an Beobachtungswerten/Daten. Mithin können keine Aussagen darüber gemacht werden, ob die Ergebnisse auf andere statistische Massen übertragbar sind. Bei Vorliegen einer Stichprobe ist damit die deskriptive Statistik allein nur wenig hilfreich für die Beantwortung von Fragen, welche sich auf eine übergeordnete Grundgesamtheit beziehen.
Die Verfahren der induktiven/schließenden Statistik adressieren genau dieses Problem der Verallgemeinerung von Ergebnissen auf Basis von Stichprobendaten. Statt Daten einer Stichprobe lediglich zu beschreiben, versucht die induktive Statistik von den für eine Stichprobe gemessenen Ergebnissen auf die Grundgesamtheit zu schließen. Solche Schlüsse sind mit mehr oder weniger Unsicherheit verbunden, weshalb das Konzept der Wahrscheinlichkeit eine elementare Grundlage für diese “schließenden Verfahren” ist.
Kurz: Die induktive Statistik erlaubt die Übertragung von Stichprobenergebnissen auf übergeordnete Grundgesamtheiten in Form von Wahrscheinlichkeitsaussagen.
Verzerrungen durch Stichprobenwahl
## Beispiel Bundesliga ----
### get data ----
#library(worldfootballR)
#df_player_mv <- tm_player_market_values(
# country_name = c("Germany"),
# start_year = 2022
# )
### save data ----
#### create filename ----
#date <- Sys.Date() #oder fix: '2023-09-06'
#my_out_file<-glue('buli_raw_{date}.rds')
#### save data ----
#write_rds(df_player_mv,file = xfun::from_root("data","raw",my_out_file))
### load data -----
date <- '2023-09-06' #oder: Sys.Date()
my_in_file<-glue('buli_raw_{date}.rds')
df_player_mv <- read_rds(file = xfun::from_root("data","raw",my_in_file))
### Data Wrangling ----
tbl_buli <- df_player_mv %>%
mutate(age=lubridate::year(Sys.Date())-lubridate::year(player_dob)) %>%
rename(name=player_name,mv=player_market_value_euro) %>%
select(name,age,mv)
options(scipen=999) # Darstellung Marktwerte nicht im wiss. Format
### quick view ----
head(tbl_buli)
## name age mv
## 1 Manuel Neuer 39 7000000
## 2 Yann Sommer 37 5000000
## 3 Sven Ulreich 37 700000
## 4 Johannes Schenk 22 300000
## 5 Matthijs de Ligt 26 75000000
## 6 Dayot Upamecano 27 60000000
### Grundgesamtheit (Saison 2022-23) -----
#### plot ----
tbl_buli %>%
ggplot(aes(x=age,y=mv)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
#### Regressionskoeffizienten -----
lm_full <- tbl_buli %>% lm(mv ~ age, data=.)
lm_full$coefficients
## (Intercept) age
## 13012052.4 -203727.1
### Auswahl Top 20 ----
#### plot ----
tbl_buli %>%
slice_max(order_by = mv,n=20) %>%
ggplot(aes(x=age,y=mv)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
#### Regressionskoeffizienten -----
lm_top20 <- tbl_buli %>%
slice_max(order_by = mv,n=20) %>%
lm(mv ~ age, data=.)
lm_top20$coefficients
## (Intercept) age
## 152130837 -3416071
### Zufallsauswahl -----
#### Ziehung Stichprobe 1 ------
set.seed(23) # Reproduzierbarkeit: Initialisierung Pseudozufallszahlen
buli_sample1 <- tbl_buli %>%
slice_sample(n=20)
#### Plot Stichprobe 1 ----
buli_sample1 %>%
ggplot(aes(x=age,y=mv)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
#### Regressionskoeffizienten Stichprobe 1 ----
lm_sample <- buli_sample1 %>%
lm(mv ~ age, data=.)
lm_sample$coefficients
## (Intercept) age
## 2530041.26 78468.28
#### Ziehung Stichprobe 2 ------
set.seed(7) # Reproduzierbarkeit: Initialisierung Pseudozufallszahlen
buli_sample2 <- tbl_buli %>%
slice_sample(n=20)
#### Plot Stichprobe 1 ----
buli_sample2 %>%
ggplot(aes(x=age,y=mv)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
#### Regressionskoeffizienten Stichprobe 2 ----
lm_sample <- buli_sample2 %>%
lm(mv ~ age, data=.)
lm_sample$coefficients
## (Intercept) age
## 23999121 -649328
Ein Zufallsvorgang ist ein Geschehen, bei dem sich aus einer Ausgangssituation mindestens zwei sich gegenseitig ausschließende Folgesituationen ergeben können. Es ist im Voraus nicht eindeutig zu bestimmen, welche konkrete Folgesituation eintreten wird (Unsicherheit).
Nenne Beispiele für einen Zufallsvorgang.
Beispiele:
Wurf einer Münze
Wurf eines Würfels
Ein Zufallsexperiment ist dadurch gekennzeichnet, dass ein Zufallsvorgang:
nach einer exakt bestimmten Vorschrift durchgeführt wird und
unter identischen Bedingungen beliebig oft wiederholbar ist.
Ein Ereignis ist ein mögliches Ergebnis eines Zufallsexperiments.
Nenne zwei Ereignisse für den Zufallsvorgang “Würfeln”.
Beispiele für Ereignisse beim Würfeln:
“gerade Augenzahl”
“Augenzahl 3”
Die einzelnen nicht mehr weiter zerlegbaren und sich gegenseitig ausschließenden Ereignisse eines Zufallsexperiments heißen Elementarereignisse und werden mit \(\omega_1,\omega_2,\dots,\omega_n\) bezeichnet.
Nenne die Elementarereignisse für den Zufallsvorgang “Würfeln”.
Elementarereignisse beim Würfeln: \(\omega_1=1, \omega_2=2,\omega_3=3,\dots,\omega_6=6\).
Die Menge \(\Omega\) aller (höchstens abzählbar unendlich vielen) Elementareignisse eines Zufallsexperiments heißt Ereignisraum \(\Omega\): \[\Omega=\{\omega_1,\omega_2,\dots,\omega_n\}\]
Die Anzahl der Elementarereignisse eines Ereignisraums wird als Mächtigkeit \(\sharp\) bezeichnet.
Welche Mächtigkeit hat der Ereignisraum des Zufallsvorgangs “Würfeln” mit einem Würfel?
\(\Omega=\{\omega_1=1, \omega_2=2,\omega_3=3,\dots,\omega_6=6\}\) \(\sharp(\Omega)=2\)
Beispiele für Ereignisräume beim Münzwurf:
In
können Zufallsexperimente mit der sample()-Funktion
durchgeführt werden. Als Argumente müssen in der
sample()-Funktion die Elementarereignisse und die Anzahl
der Wiederholungen des Zufallsexperiments (Option: size=)
eingetragen werde.
Standardmäßig wird von einem Experiment ohne Zurücklegen ausgegangen.
## Zufallsexperimente in R -----
### Beispiel Münzwurf -----
#### Elementarereignisse definieren ----
muenze <- c("Kopf","Zahl")
#### Zufallsexperiment: einmaliger Münzwurf ----
sample(muenze,size=1)
## [1] "Kopf"
#### Zufallsexperiment: zweimaliger Münzwurf ----
# Obs! Da standardmäßig die Option replace=FALSE gewählt wird, ist das Ergebnis
# des zweiten Münzwurfs immer vollständig durch das Ergebnis des ersten Münzwurfs determiniert.
sample(muenze,size=2)
## [1] "Kopf" "Zahl"
#### Zufallsexperiment: dreimaliger Münzwurf -----
#sample(muenze,size=3) erzeugt eine Fehlermeldung, weil standardmäßig ohne Zurücklegen
#daher Änderung der Option replace notwendig
sample(muenze,size=3,replace=TRUE)
## [1] "Kopf" "Zahl" "Zahl"
Weil Computer nicht in der Lage sind echte Zufallszahlen zu berechnen, werden mit der sample()-Funktion sogenannte Pseudozufallszahlen erzeugt. Dabei wird der Generator für Pseudozufallszahlen mit einer ganzen Zahl initialisiert auf deren Basis dann eine scheinbar zufällige (tatsächlich aber deterministische) Abfolge von Pseudozufallszahlen.
Damit Zufallsexperimente repliziert werden können, sollte die Zahl,
mit der die Erzeugung der Pseudozufallszahlen initialisiert wird,
kontrolliert werden. Dies ist in R mit der
set.seed()-Funktion möglich. Hier kann ein beliebiger Wert
eingetragen werden, der dann auch im Fall der Replikation zu übernehmen
ist. So kann die Reproduzierbarkeit von Ergebnissen
sichergestellt werden.
### Beispiel Würfel -----
#### Elementarereignisse definieren ----
wuerfel <- c(1:6)
#### Zufallsexperiment -----
set.seed(23) #why 23? see https://www.youtube.com/watch?v=N_8nlOvfCJU
##### ohne Zurücklegen -----
sample(wuerfel,size=6)
## [1] 5 4 6 3 2 1
##### mit Zurücklegen ----
sample(wuerfel,size=6,replace=TRUE)
## [1] 3 5 2 1 5 1
Heute liegt der Wahrscheinlichkeitsrechnung fast ausnahmslos eine axiomatische Definition der Wahrscheinlichkeit zugrunde, die auf A.N. Kolmogorov (1933) zurückgeht. Ausgangspunkt für die axiomatische Definition ist der Ereignisraum \(\Omega\).
Eine Funktion \(P\), die einem Ereignis \(A\) eine Wahrscheinlichkeit \(P(A)\) zuordnet, heißt Wahrscheinlichkeitsfunktion, wenn sie die drei Axiome nach Kolmogorov erfüllt:
\[0\leq P(A)\leq 1\]
\[P(\Omega)=1\]
\[P(A\cup B)=P(A)+P(B),~\mbox{für} A\cap B=\emptyset\]
Die Axiome P1-P3 legen formale Eigenschaften von Wahrscheinlichkeiten fest und erlauben so das ableiten von Rechenregeln, wie bspw.
\[P(\bar{A})=1-P(A)\]
\[P(\emptyset)=0\]
Wahrscheinlichkeit einer Differenz
\[A\backslash B: P(A\backslash B)=P(A)-P(A\cap B)\]
\[P(A\cup B)=P(A)+P(B)-P(A\cap B)\]
\[A\subset B \implies P(A)\leq P(B)\]
Die Axiome P1-P3 erlauben zwar die Ableitung der o.a. Rechnregeln, sie leisten allerdings keinen Beitrag zur Ermittlung des konkreten Werts von P(A). Wie können diese Werte für Wahrscheinlichkeit bestimmt werden?
Grundsätzlich soll die Wahrscheinlichkeit ein Maß für die “‘Chance’ des Eintretens eines Ereignisses sein” (Schwarze (2013, S. 12)). Diese Chance kann nun unterschiedlich quantifiziert werden.
Zu den beiden wichtigsten Definitionen von Wahrscheinlichkeit gehören…
In den vergangenen Jahren hat zudem die Definition nach Bayes an Bedeutung gewonnen. Auer and Rottmann (2015, S. 165ff) stellen noch eine Definition “subjektiver Wahrscheinlichkeiten” vor (z.B. Wettquoten).
Die Laplace-Wahrscheinlichkeit wird vor dem Hintergrund eines Laplace-Experiments definiert, bei dem alle Elementarereignisse die gleiche Wahrscheinlichkeit (Gleichwahrscheinlichkeit) hat, einzutreten. \[P(A)=\frac{\mbox{Anzahl der für A günstigen Elementarereignisse}}{\mbox{Anzahl aller möglichen Elementarereignisse}}\]
Neben der Gleichwahrscheinlichkeit setzt die Definition von Laplace dabei voraus, dass die Anzahl der Ereignisse endlich ist. In der Praxis ist die Definition von Laplace aufgrund der Forderung nach Gleichwahrscheinlichkeit primär im Kontext von Glücksspielen anwendbar.
Die Statistische Definition basiert auf der u.a. auf Mises zurückgehenden Grundidee, dass sich die relativen Häufigkeiten stabilisieren, je häufiger ein Zufallsexperiment wiederholt wird. Die relativen Häufigkeiten streben gegen einen Grenzwert, der als Wahrscheinlichkeit für das Auftreten des betrachteten Ereignisses interpretiert wird.
Gegeben sei ein beliebig oft identisch wiederholbares Zufallsexperiment und ein Ereignis \(A\). Es sei \(f_n(A)\) die relative Häufigkeit für das Auftreten von A nach n-maliger Wiederholdung des Zufallsexperiments. Dann gilt für die Wahrscheinlichkeit \(P(A)\) von \(A\): \[P(A)=\lim_{n\to\infty}f_n(A)\]
Der Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten wurde von J. Bernoulli durch das “Gesetz der großen Zahl” präzisiert” (Auer and Rottmann (2015, S. 165)).
Das Gesetz der großen Zahl besagt nach Bernouilli1, dass die Wahrscheinlichkeit \(P(A)\) dafür, dass die relativen Häufigkeiten \(f_n(A)\) eines identisch wiederholbaren Zufallsexperiments mindestens um einen positiven Betrag \(\varepsilon\) abweicht, mit wachsendem n gegen Null konvergiert: \[\lim_{n\to\infty}P(|f_n(A)-P(A)|\geq\varepsilon)=0\]
Damit können in der Praxis die (unbekannten) Wahrscheinlichkeiten durch relative Häufigkeiten angenähert/geschätzt werden:
\[\hat{P}(A)=f_n(A)\].
Der Wert, bei dem sich \(f_n(A)\) stabilisiert, wird als empirische/statistische Wahrscheinlichkeit(en) bezeichnet.
Die sample()-Funktion nimmt
standardmäßig die Gleichwahrscheinlichkeit der
Elementarereignisse an. Mit der Option
prob kann die Wahrscheinlichkeit aber angepasst werden, bspw.
an die beobachteten relativen Häufigkeiten.
Bspw. kann das Experiment des Münzwurfs mit einer gezinkten (nicht fairen) Münze (80% Wahrscheinlichkeit für Zahl) wie folgt simuliert werden:
## Gesetz der großen Zahl ----
### Zufallsexperiment mit unfairer Münze ----
set.seed(24)
p_kopf <- .2
### 5 Würfe -----
n<-5
sample(muenze,size=n,replace=TRUE,prob=c(p_kopf,(1-p_kopf)))
## [1] "Zahl" "Zahl" "Zahl" "Zahl" "Zahl"
Im vorliegenden Fall stimmt das Ergebnis des Zufallsexperiments nicht mit den vorgegebenen Wahrscheinlichkeiten (P(Kopf)=0.2, P(Zahl)=1-P(Kopf)=0.8) überein. Bei 5 Würfen, wäre nur 4-mal Zahl zu erwarten.
Wenn wir das Experiment öfter wiederholen, ist nach dem Gesetz der großen Zahl aber zu erwarten, dass sich die Verteilung den Wahrscheinlichkeiten annhähert. Dies können wir in R wie folgt darstellen:
### 700 Würfe ----
set.seed(24)
n_flips<-700
flips<-sample(muenze,size=n_flips,replace=TRUE,prob=c(.2,.8))
f_Kopf <- cumsum(flips == 'Kopf') / 1:n_flips
### Diagramm ----
f_Kopf %>%
enframe(name = "n", value = "f") %>%
ggplot(aes(n,f)) +
geom_hline(yintercept = p_kopf) +
geom_line(linewidth=.7,color='red') +
labs(x = "Zahl der Würfe",
y = "relative Häufigkeit") +
theme_light()
Während die Elementarereignisse beim Wurf eines Würfels aus diskreten Zahlen besteht, haben sie im Fall des Münzwurfs mit “Kopf” und “Zahl” nicht den Charakter von Zahlen. Wenn die Elementarereignissen eines Zufallsexperiments reellwertig sind (bspw. Augenzahl , Aktienrenditen) können diese “direkt” als Zufallsvariable interpretiert werden.
Nehmen die Elementareignisse keine reellen Zahlenwerte an, so müssen sie entsprechend (re)codiert werden. Im Fall des Münzwurfs könnten die Elementarereignisse bspw. wie folgt recodiert werden: “0” für “Kopf” und “1” für “Zahl”.
Eine Zufallsvariable (engl. random variable) ist eine messbare Funktion \(X\), die jedem Elementarereignis \(\omega\in\Omega\) eine reelle Zahl \(X(\omega)\) zuordnet. Formal: \[X : \omega \to X(\omega) \in \mathbb{R}.\]
Das Zufallsexperiment “Zweimaliger Münzwurf” hat die Elementarereignisse \(\omega_1=KZ, \omega_2=ZZ, \omega_3=KK ~\mbox{und}~\omega_4=ZK\). Wenn die Reihenfolge keine Rolle spielt, sind \(\omega_1\) und \(\omega_4\) gleichwertig. In diesem Fall könnte die Zufallsvariable zum Experiment wie folgt definiert werden:
Diskrete Zufallsvariablen können nur endlich viele (abzählbare) Werte annehmen. Sie sind häufig das Ergebnis eines Zählvorgangs (ganzzahlige Ereignisse).
Die Wahrscheinlichkeit \(P(X=x_i)\), dass eine Zufallsvariable \(X\) mit endlich vielen möglichen Werten/Ausprägungen \((x_1,x_2,\dots ,x_n)\) eine spezielle Ausprägung \(x_i\) annimmt, ergibt sich durch Addition der Wahrscheinlichkeiten der Elementarereignisse \(\omega_i\), denen die Realisation \(x_i\) zugeordnet ist:
\[P(X=X_i)=\sum_{X(\omega_i)}P(\omega_i).\]
Wie hoch ist die Wahrscheinlichkeit, dass beim Experiment “Zweimaliger Münzwurf” (s.o.) zwei verschiedene Seiten geworfen werden?
\(P(X=X(\omega_1)\lor X(\omega_4))=0,5\)
Die Wahrscheinlichkeitsfunktion \(f(x)\) jeder reellen Zahl \(x\) die Wahrscheinlichkeit zu, mit der sie bei dieser Zufallsvariable auftritt:
\[f(x)=\begin{cases} P(X=x_i) & ~,\forall x=x_i\\ 0 & ~,\mbox{sonst}\\ \end{cases}\]
Die Eigenschaften der Wahrscheinlichkeitsfunktion entsprechen den Eigenschaften der relativen Häufigkeiten im Fall der deskriptiven Statistik:
## Zufallsvariablen -----
### diskrete Zufallsvariablen ----
#### Beispiel Würfel -----
p_wuerfel <- rep(1/6, 6)
df_wuerfel <- tibble(wuerfel,p_wuerfel) %>%
rename(E=wuerfel,P=p_wuerfel)
#### Plot Wahrscheinlichkeitsfunktion ----
df_wuerfel %>%
ggplot(aes(x=as.factor(E),y=P)) +
geom_point(size=3,color='red') +
#ggplot(aes(x=as.factor(E))+geom_bar(aes(y=P),stat='identity') +
scale_y_continuous(limits = c(0, 1)) +
labs(x = "Ereignis (Augenzahl)",
y = "Wahrscheinlichkeit") +
theme_light()
Wahrscheinlichkeitsfunktion
Die Verteilungsfunktion \(F(x)\) der Zufallsvariablen X mit der Wahrscheinlichkeitsfunktion \(f(x)\) gibt die Wahrscheinlichkeit dafür an, dass eine Zufallsvariable höchstens den Wert x annimmt. Formal: \[F(x)=P(X\leq x)=\sum_{x_i\leq x}f(x_i).\]
#### Berechnung Verteilungsfunktion -----
df_wuerfel <- df_wuerfel %>%
mutate(cum_P=cumsum(P))
#### Plot Verteilungsfunktion -----
df_wuerfel %>%
ggplot(aes(as.factor(E),cum_P)) +
geom_point(size=3,color='red') +
labs(x = "Ereignis (Augenzahl)",y = "Wahrscheinlichkeit") +
theme_light()
Verteilungsfunktion
Erwartungswert
Der Erwartungswert E(X) einer diskreten Zufallsvariablen \(X\) ist wie folgt definiert: \[E(X)=\sum_{i}x_if(x_i):=\mu\]
Der Erwartungswert kann analog zum arithmetischen Mittelwert einer (empirischen) Häufigkeitsverteilung berechnet werden.
#### Verteilungsparameter ----
##### Erwartungswert ----
mean(wuerfel)
## [1] 3.5
Interpretation des Erwartungswerts als Durchschnitt einer Zufallsvariable bei unendlich vielen Durchführungen eines Zufallsexperiments. Beim Würfel würden wir entsprechend eine durchschnittliche Augenzahl von 3.5 erwarten.
#### Erwartungswert und Konvergenz -----
set.seed(24)
##### dreimaliges Würfeln -----
sample(1:6, 3, replace = T)
## [1] 3 2 3
Bei dreimaligem Würfeln können offenbar deutliche Abweichungen vom Erwartungswert auftreten. Bei häufiger Wiederholung konvergiert das Ergebnis gegen den theoretischen Erwartungswert:
set.seed(24)
##### 10000 Ziehungen -----
mean(sample(1:6, 10000, replace = T))
## [1] 3.456
Varianz
Die Varianz misst die Streuung der Verteilung einer Zufallsvariable \(X\) um ihren Mittelwert (Erwartungswert) als quadrierte Abweichungen vom Erwartungswert: \[\sigma^2=\sum_{i}[x_i-E(X)]^2\cdot f(x_i)=\sum_{i}x_i^2f(x_i)-[E(X)]^2\]
#### Varianz -----
var(1:6)
## [1] 3.5
Die mit der var()-Funktion berechnete Stichprobenvarianz ist als Schätzung für die Varianz der Grundgesamtheit zu interpretieren.
##### Populationsvarianz-----
var(1:6)*(length(wuerfel)-1)/length(wuerfel)
## [1] 2.916667
Stetige Zufallsvariablen können alle möglichen reellen Zahlen als Wert annehmen (überabzählbar viele Werte).
Stetige Zufallsvariablen sind häufig das Ergebnis von Messprozessen (es sind Nachkommastellen vorhanden).
Im Fall stetiger Zufallsvariablen können Wahrscheinlichkeiten nicht wie bei diskreten Zufallsvariablen als Funktionswert der Wahrscheinlichkeitsfunktion angegeben werden. Stattdessen werden Wahrscheinlichkeiten als Integral der Dichtefunktion \((f)\) berechnet.
Die Dichtefunktion \(f(x)\) einer stetigen Zufallsvariablen \(X\) ist eine (intervallweise) stetige Funktion mit den Eigenschaften:
Die Aufsummierung von Wahrscheinlichkeiten im diskreten Fall hat ihre Entsprechung in der Berechnung von Wahrscheinlichkeiten mittels Integration im Fall stetiger Zufallsvariablen. Die Wahrscheinlichkeit, dass eine Zufallsvariable \(X\) einen Wert \(x\) im Intervall \(a<x\leq b\) annimmt, kann als Fläche unter der Dichtefunktion bestimmt werden: \[P(a<x\leq b)=\int_{a}^{b}f(x)dx\]
Beispiel: \[f_X(x)=\frac{3}{x^4},~\forall x>1\]
f <- function(x) 3 / x^4
integrate(f,
lower = 1,
upper = Inf)$value
## [1] 1
Die Verteilungsfunktion einer stetigen Zufallsvariable entspricht einer Stammfunktion \((F)\) der Dichtefunktion bzw. \[F(x)=P(X\leq x)=\int_{-\infty}^{x}f(t)dt\]
Erwartungswert
Der Erwartungswert E(X) einer stetigen Zufallsvariablen \(X\) ist wie folgt definiert: \[E(X)=\int_{-\infty}^{+\infty}xf(x)dx:=\mu\]
Der Erwartungswert kann als Durchschnitt interpretiert werden, den eine Zufallsvariable bei unendlich vielen Durchführungen eines Zufallsexperiments annimmt.
Beispiel: Erwartungswert der Dichtefunktion \[f_X(x)=\frac{3}{x^4},~\forall x>1\]
g <- function(x) x * f(x)
E_X <- integrate(g,
lower = 1,
upper = Inf)$value
E_X
## [1] 1.5
Varianz
Die Varianz misst die Streuung der Verteilung einer Zufallsvariable \(X\) um ihren Mittelwert (Erwartungswert) als quadrierte Abweichungen vom Erwartungswert: \[\sigma^2=\int_{-\infty}^{\infty}[x-E(X)]^2\cdot f(x)dx=\int_{-\infty}^{\infty}x^2\cdot f(x)dx-[E(X)]^2.\]
Beispiel: Varianz der Dichtefunktion
\[f_X(x)=\frac{3}{x^4},~\forall x>1\]
h <- function(x) x^2 * f(x)
integrate(h,
lower = 1,
upper = Inf)$value - E_X^2
## [1] 0.75
Für unterchiedliche Eigenschaften von Zufallsvariablen bzw. abhängig vom zugrundeliegenden Zufallsprozess werden u.a. die folgenden theoretischen Verteilungen unterschieden:
Alle theoretischen Verteilungen repräsentieren jeweils eine Schar von unendlich vielen Einzelverteilungen. Festlegung einer konkreten Verteilung durch Parametrisierung
Diese theoretische Verteilungen dienen…
Ein Bernoulli-Experiment ist ein Zufallsexperiment mit folgenden Eigenschaften:
Für jeden Versuch gibt es nur zwei mögliche Ausgänge (Ereignisse): \(A\) und \(\bar{A}\) mit der \(P(A)=p\) und der Wahrscheinlichkeit des Gegenereignisses (Gegenwahrscheinlichkeit) \(P(\bar{A})=1-p\), mit \(0\leq p\leq 1\).
das Zufallsexperiment wird \(n\)-mal wiederholt,
die Versuche sind dabei voneinander unabhängig (d.h. Ziehen mit Zurücklegen).
dies impliziert, dass die Wahrscheinlichkeiten \(p\) bzw. \(1-p\) konstant sind.
Die Zufallsvariable \(X\), welche die Anzahl der Ereignisse \(A\) aus einem Bernoulli-Experiment angibt, folgt einer Binomialverteilung \(X\sim B(n,p)\) mit der Wahrscheinlichkeitsfunktion: \[f(x=X)=\begin{cases} {n \choose x} \cdot p^x\cdot(1-p)^{n-x} & ,~x=0,1,2,\dots, n\\ 0& ,~\mbox{sonst}\\ \end{cases}\]
Dabei steht \(n \choose x\) für den Binomialkoeffizienten.
Der Binomialverteilung liegt ein Bernoulli-Experiment zugrunde. Die Zufallsvariable ist somit dichotom (2 Elementarereignisse) und die Versuche sind voneinander unabhängig (Ziehen mit Zurücklegen). Letzteres impliziert konstante Wahrscheinlichkeiten p des Eintritts der Elementarereignisse.
In
können die Werte der Wahrscheinlichkeitsfunktion mit der
dbinom()-Funktion, jene der Verteilungsfunktion mit der
pbinom()-Funktion berechnet werden.
Beispiel Münzwurf mit fairer Münze: Berechnung der Wahrscheinlichkeit für fünfmal Kopf bei 10 Würfen:
\[P(k)=P(k=5|n=10,p=0,5)\]
## Theoretische Verteilungen ----
### Diskrete ZV ----
#### Binomialverteilung ----
##### Beispiel Münzwurf ----
dbinom(x = 5,
size = 10,
prob = 0.5)
## [1] 0.2460938
Die Wahrscheinlichkeit \(P(k=5|n=10,p=0,5)\) beträgt also rund 24,61%.
Beispiel “Mensch ärgere Dich nicht”: Wahrscheinlichkeit der Augenzahl “6” bei einmaligem Wurf: 1/6. Mehrmaliges Würfeln als Bernouilli-Experiment. Wie wahrscheinlich ist es, bei 4 Würfen, nur einmal die Augenzahl “6” zu würfeln?
##### Beispiel "Mensch ärgere Dich nicht" ----
###### Wahrscheinlichkeit von einmalig Augenzahl 6 bei 4 Würfen? -----
dbinom(x = 1,
size = 4,
prob = 1/6)
## [1] 0.3858025
Die Wahrscheinlichkeit \(P(k=1|n=4,p=\frac{1}{6})\) beträgt also rund 38,58%.
Um die Wahrscheinlichkeit \(P(4\leq k\leq 7)\) zu besimmen, können entweder die mit der dbinom()-Funktion bestimmten Wahrscheinlichkeiten \(P(4), P(5),P(6),P(7)\) aufsummiert werden:
###### Wahrscheinlichkeit zwischen 4 und 7 bei 10 Würfen? ----
####### Variante 1 -----
sum(dbinom(x = 4:7, size = 10, prob = 0.5))
## [1] 0.7734375
Alternativ kann von der kumulierten Wahrscheinlichkeit \(P(k\leq 7)\) die kumulierte
Wahrscheinlichkeit \(P(k\leq 4)\)
abgezogen werden. Die kumulierten Wahrscheinlichkeiten bzw. die
Verteilungsfunktion ist in R mit der pbinom()-Funktion zu
bestimmen:
####### Variante 2 -----
pbinom(size = 10, prob = 0.5, q = 7) - pbinom(size = 10, prob = 0.5, q = 3)
## [1] 0.7734375
Grafisch kann die Binomialverteilung wie folgt veranschaulicht werden:
Dichte- und Verteilungsfunktion der Binomialverteilung
Der Erwartungswert einer \(B(n,p)\)-verteilten Zufallsvariablen \(X\) ergibt sich als Produkt der Wiederholungen mit der Erfolgswahrscheinlichkeit: \(E(X)=n\cdot p\). Die Varianz einer \(B(n,p)\)-verteilten Zufallsvariablen \(X\) berechnet sich nach: \(\sigma^2(X)=np(1-p)\).
Wenn die beiden Zufallsvariablen \(X\sim B(n,p)\) und \(Y\sim B(m,p\)) unabhängig voneinander sind, dann gilt für die Zufallsvariable \(Z=X+Y\): \(Z\sim B(n+m,p)\) (Reproduktivitätseigenschaft). Für \(np(1-p)>9\) ist eine B(n,p)-verteilte Zufallsvariable näherungsweise normalverteilt \(N(np,\sqrt{np(1-p)})\).
Der hypergeometrischen Verteilung liegt wie der Binomialverteilung eine dichotome Zufallsvariable zugrunde. Allerdings sind die Eintrittswahrscheinlichkeiten anders als im Fall des Bernoulli-Experiments nicht konstant (Ziehen ohne Zurücklegen).
Betrachtet werde das folgende Urnenmodell: In einer Urne mit \(m+n\) Kugeln besitzen \(m\) Kugeln die Eigenschaft \(A\) (bspw. weiß) und \(n\) Kugeln besitzen diese Eigenschaft nicht (sind bspw. schwarz). Im Fall einer zufälligen Entnahme von \(k\) Kugeln ohne Zurücklegen ist die Zufallsvariable \(X\) hypergeometrisch verteilt:
\[X\sim H(m,n,k)\]
Die Wahrscheinlichkeit, dass von den \(k\) zufällig entnommenen Kugeln genau \(x\) Kugeln, die Eigenschaft \(A\) besitzen (weiß sind), ergibt sich dann als:
\[f_X(x)=\frac{{m\choose x}{n\choose k-x}}{m+n\choose k}\]
In
können hypergeometrische Verteilungswerte mit der dyhper()-
bzw. der phyper()-Funktion berechnet werden.
Beispiel: Beim Lottospiel “6 aus 49” werden wöchentlich sechs Zahlen aus einer Urne mit 49 Zahlen ohne Zurücklegen gezogen. Wie hoch ist die Wahrscheinlichkeit für…
##### Beispiel Lotto -----
m<-6 #6 Zahlen gewinnen (Ereignis A)
n<-43 #Insgesamt 49 Zahlen, entsprechend bilden 43 Zahlen das Komplementärereignis (nicht gewinnen)
k<-6 #gezogen wird 6 mal - Zusatzzahl/Superzahl wird nicht berücksichtigt
x_1 <-3 #3 Richtige
dhyper(x_1,m,n,k)
## [1] 0.0176504
x_2 <- 6 # 6 Richtige
dhyper(x_2,m,n,k)
## [1] 0.00000007151124
Beispiel “Qualitätskontrolle”: Ein Smartphone-Hersteller versendet 16 Top-Modelle an einen Händler. Der Hersteller weiß, dass fünf einen Wackelkontakt haben. Der Händler prüft die Qualität der Smartphones mit einer Stichprobe von vier zufällig ausgewählten Geräten. Wie hoch ist die Wahrscheinlichkeit, dass der Händler…
##### Beispiel Qualitätskontrolle -----
m<-5 # Ereignis A: fünf Smartphones haben einen Wackelkontakt
n<-11 #Komplementärereignis: 11 Smartphones funktionieren einwandfrei
k<-4 #der Händler testet 4 Geräte
x_1<-0
dhyper(x_1,m,n,k) #genau ein defektes Gerät - mit dhyper
## [1] 0.1813187
x_2<-1
phyper(x_2,m,n,k) #höchstens 2 defekte Geräte - direkt mit phyper
## [1] 0.6346154
x_3<-1 #mindestens 2 defekte Geräte impliziert höchstens 1 funktionsfähiges Gerät
1-phyper(x_3,m,n,k) #Berechnung als Gegenwahrscheinlichkeit mit phyper
## [1] 0.3653846
Beispiel “Innovation”: Auf einem Markt von 100 Unternehmen befinden sich 10 innovative Unternehmen. Wie groß ist die Wahrscheinlichkeit, dass in einem Kartell von 4 Unternehmen mindestens die Hälfte der Unternehmer innovativ sind?
Da ein Unternehmen, das dem Kartell beigetreten ist, nicht nochmals für einen Beitritt in Betracht kommt, liegt das Auswahlmodell “Ziehen ohne Zurücklegen” vor. Die Zufallsvariable \(X\) gibt die Anzahl der innovativen Unternehmer (das interessierende Ereignis A) im Kartell an. Die gesuchte Wahrscheinlichkeit \(P(x=2)\) lässt sich mit der hypergeometrischen Verteilung bestimmen.
##### Beispiel Innovation ----
m<-90
n<-10
k<-4
phyper(2,m,n,k)
## [1] 0.0487692
sum(dhyper(0:2,m,n,k))
## [1] 0.0487692
Weil der Auswahlsatz \(\frac{n}{N}=\frac{4}{100}=0,04\) kleiner als 0,05 ist, kann die gesuchte Wahrscheinlichkeit näherungsweise mit der Binomialverteilung bestimmt werden.
pbinom(size = 4, prob = 0.1, q = 4) -pbinom(size = 4, prob = 0.1, q = 1)
## [1] 0.0523
sum(dbinom(x=2:4,size=4,prob=.1))
## [1] 0.0523
Mit zunehmender Zahl der konkurrierenden Unternehmen wird die Approximation der hypergeometrischen Verteilung durch die Binomialverteilung genauer.
Die geometrische Verteilungentspricht einem Bernoulli-Prozess, wobei die Zufallsvariable X die Anzahl der Misserfolge misst.
Beispiel Liefertreue: Der Controller einer Firma hat ermittelt, dass die Lieferanten die vereinbarten Lieferfristen im Mittel in 85 % der Bestellungen einhalten. Die Firma hat mit einem neuen Lieferanten laufende Teillieferungen von Halbfertigerzeugnissen für die Herstellung eines Produktes vereinbart. Nachdem der Lieferant dreimal fristgerecht geliefert hat, ist er bei der vierten Teillieferung in Verzug geraten.
#### Geometrische Verteilung ----
##### Definition Wahrscheinlichkeit Liefertreue ----
prob <- .85
Mit welcher Wahrscheinlichkeit ist ein solches Verhalten des Lieferanten zu erwarten? Die Zufallsvariable \(X\) misst die Anzahl der Misserfolge, die hier der Anzahl der fristgerechten Lieferungen entspricht. Eine Lieferung der Firma ist mit einer Wahrscheinlichkeit von 85% fristgerecht (Ereignis \(\bar{A}\)). Daher ist die Wahrscheinlichkeit \(p\) für eine nicht fristgerechte Lieferung (das interessierende Ereignis A) gleich \(p=\) 0,15.
Gesucht ist damit die Wahrscheinlichkeit, dass die geometrisch verteilte Zufallsvariable \(X\) den Wert \(x=3\) annimmt: \[P(x=3)=f(3)=(1-p)^x\cdot p\]
##### Berechnung der Wahrscheinlichkeit -----
x <- 3
f <- prob^x*(1-prob)
Die Wahrscheinlichkeit, dass ein Lieferant erst bei der vierten Teillieferung in Verzug gerät, beträgt 9,21%.
Bei Bernoulli-Experimenten mit einer sehr geringen Wahrscheinlichkeit \(p\) des Ereignisses A (auch: geringe Erfolgswahrscheinlichkeit) bei gleichzeitig großer Anzahl von Wiederholungen \(n\) des Zufallsexperiments kann die Binomialverteilung durch die Verteilung approxomiert werden, die sich für \(p\to 0\) und \(n\to\infty\) ergibt, wenn zudem der Erwartungswert \(\mu = n\cdot p \to \lambda = \mbox{konst.}\) im Grenzwert konstant ist.
Die Wahrscheinlichkeit \(P(x|\lambda)\) einer diskreten poissonverteilten Zufallsvariable \(X\sim Ps(\lambda)\) kann mit der Wahrscheinlichkeitsfunktion \[f_X(x) = \frac{\lambda^x}{x!}\cdot e^{-\lambda},~\forall x=0,1,2,\dots\]
Aufgrund der sehr kleinen Erfolgswahrscheinlichkeit bei großer Anzahl an Wiederholungen kann die Poisson-Verteilung bspw. im Qualitätsmanagement eingesetzt werden. In R kann die Wahrscheinlichkeit von \(x\) Erfolgen bei erwarteter Anzahl von Ereignissen A \((\lambda)\) mit der dpois-Funktion berechnet werden. Für kumulierte Wahrscheinlichkeit von höchstens \(q\) Erfolgen steht die ppois()-Funktion zur Verfügung. In der ppois()-Funktion kann die Option lower.tail gewählt werden (lower.tail = TRUE für den linken Rand, lower.tail = FALSE für den rechten Rand).
Beispiel Qualitätskontrolle: Ein Fahrradhersteller möchte die Qualität seiner E-Bikes kontrollieren. Aus Erfahrung weiß er, dass ein Mangel bei einem von 100 E-bikes zu erwarten ist \((\lambda=1)\). Wie hoch ist die Wahrscheinlichkeit, höchstens zwei (also zwei oder weniger) Mängel pro 100 E-bikes zu finden: \(P(X \leq 2)\)?
#### Poisson-Verteilung -----
# Beispiel Qualitätskontrolle
lambda <- 1
#R als Taschenrechner
((lambda^2)/2)*exp(1)^(-1*lambda)+((lambda^1)/1)*exp(1)^(-1*lambda)+((lambda^0)/1)*exp(1)^(-1*lambda)
## [1] 0.9196986
#Mittels Dichtefunktion
sum(dpois(0:2,1))
## [1] 0.9196986
#Mittels Verteilungsfunktion
ppois(2,1)
## [1] 0.9196986
Bei Zufallsexperimenten mit sehr vielen Beobachtungen ist nicht jede mögliche Ausprägung darstellbar. Daher werden wie im Fall der relativen Häufigkeiten Klassen gebildet. Mit zunehmender Anzahl an Klassen wird die Darstellung immer stetiger (bei unendlich hoher Klassenanzahl und unendlich kleiner Klassenbreite wäre die Funktion perfekt stetig).
Nach Normierung der relativen Häufigkeit mit der Klassenbreite, kann aus der Fläche der Klassen die Wahrscheinlichkeit der jeweiligen Klasse berechnet werden. Es ist nicht möglich, Punktwahrscheinlichkeiten zu berechnen, da die Fläche über einem spezifischen Punkt per Definition Null ist: \(P(X = a) = 0\).
Zu den Wichtigsten stetigen Verteilungen gehören:
Die Standardnormalverteilung (auch Gauss-Verteilung) ist die wichtigste Verteilung zur Modellierung von Zufallsvorgängen. Sie spielt bei nahezu allen Anwendungen der Statistik eine Rolle. Wählen wir beliebig oft statistische Einheiten aus einer Verteilungsfunktion \((n\to\infty)\), so konvergiert die Verteilung gegen eine Normalverteilung.
Beispiele: Messabweichungen, Produktionsfehler von Maschinen, die Brown’sche Molekularbewegung aber auch Naturkatastrophen folgen der Normalverteilung mit unterschiedlichen Lageparametern und Streuungsmaßen.
Eine stetige Zufallsvariable \(X\) heißt normalverteilt mit den Parametern \(\mu\) und \(\sigma\) , wenn Ihre Dichtefunktion gegeben ist durch: \[f(x)=\frac{1}{\sigma\cdot \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]
Die Zufallsvariable \(X\) heißt dann auch \(N(\mu,\sigma)\)-verteilt. Die Normalverteilung ist entsprechend durch die beiden Parameter Erwartungswert \((\mu)\) und Standardabweichung \((\sigma)\) vollständig determiniert. Der Erwartungswert ist zugleich die globale Maximalstelle der Dichtefunktion, \(\mu-\sigma\) und \(\mu+\sigma\) sind die Wendestellen der Dichtefunktion.
Ist eine Zufallsvariable \(X\) mit Erwartungswert \(\mu\) und Varianz \(\sigma^2\) normalverteilt, so ist die z-standardisierte Zufallsvariable \(Z=\frac{X-\mu}{\sigma}\) standard-normalverteilt: \[Z\sim N(0,1)\]
### Stetige ZV ----
#### Normalverteilung -----
##### Dichtefunktion -----
ggplot(data = tibble(x = c(-4, 4)), aes(x)) +
stat_function(fun = dnorm, n = 101, args = list(mean = 0, sd = 1)) +
labs(x="z-Wert",y="Dichte") +
theme_light()
# draw a plot of the N(0,1) PDF
#curve(dnorm(x),
# xlim = c(-3.5, 3.5),
# ylab = "Dichte",
# main = "Standardnormalverteilung")
Mit Bereichen
Die Verteilungsfunktion der Standardnormalverteilung kann grafisch wie folgt dargestellt werden:
##### Verteilungsfunktion ------
ggplot(data = tibble(x = c(-4, 4)), aes(x)) +
stat_function(fun = ~ pnorm(q = .,
mean = 0,
sd = 1)) +
labs(x="z-Wert",y="kumulierte Wahrscheinlichkeit") +
theme_light()
Die Exponentialverteilung ist eine stetige Wahrscheinlichkeitsverteilung, die zur Modellierung der Dauer von kontinuierlichen Vorgängen wie Wartezeiten, Lebensdauern und Ausfallzeiten von Relevanz ist:
Die Exponentialverteilung kann als das kontinuierliche Pendant der Poissonverteilung angesehen werden. Der Parameter \(\lambda\) der einparametrischen Verteilung ist ein Maß für die durchschnittliche Zeit zwischen zwei Ereignissen. Eine Zufallsvariable \(X\) folgt einer Exponentialverteilung mit dem Parameter \(\lambda\), wenn die Dichtefunktion von \(X\) durch
\[f(x)=\begin{cases} \lambda\cdot e^{-\lambda x} & ~,\forall x\geq 0,~\lambda>0\\ 0 & ~,\mbox{sonst}\\ \end{cases}\]
Für die Verteilungsfunktion einer exponentialverteilten Zufallsvariable \(X\) mit dem Parameter \(\lambda\) gilt:
\[F(x)=\begin{cases} 0 & ~,\forall x<0\\ 1-\lambda\cdot e^{-\lambda x} & ~,\forall x\geq 0,~\lambda>0\\ \end{cases}\]
Erwartungswert und Varianz sind gegeben durch: * \(E(X)=\frac{1}{\lambda}\) * \(\sigma(X)=\frac{1}{\lambda^2}\)
Beispiel: Die Lebensdauer (= Wartezeit bis zum Ausfall) von Glühbirnen des Typs A ist exponentialverteilt mit dem Erwartungswert 10 (1.000 Stunden) Wie groß ist die Wahrscheinlichkeit, dass eine Glühbirne mehr als 12 (1.000 Stunden) intakt ist?
Berechnung mit der Dichtefunktion:
#### Exponentialverteilung ----
X<-12
E_X<-10
lambda<-1/E_X
f<-function(x) lambda*exp(1)^(-lambda*x)
1-integrate(f,
lower = 0,
upper = X)$value
## [1] 0.3011942
Berechnung mit der Verteilungsfunktion:
X<-12
E_X<-10
lambda<-1/E_X
F<-function(x) 1-exp(1)^(-lambda*x)
1-F(X)
## [1] 0.3011942
Die \(\chi^2\)-Verteilung gehört wie die Student t-Verteilung und die F-Verteilung zu den am häufigsten verwendeten sog. Test-Verteilungen, die im Rahmen von Hypothesentests Anwendung finden.
Sind \(Z_1,Z_2,\dots,Z_\nu\) unabhängig standardnormalverteilte Zufallsvariablen, dann folgt die Summe der quadrierten Zufallsvariablen \[\chi^2=Z_1^2+Z_2^2+\dots Z_\nu^2\] einer \(\chi^2\)-Verteilung mit \(\nu\) Freiheitsgraden (Anzahl der unabhängigen Zufallsvariablen).
Der Erwartungswert einer \(\chi^2\)-verteilten Zufallsvariable entspricht den Freiheitgraden: \[E(\chi^2)=\nu\]
Für die Varianz gilt: \[\sigma^2(\chi^2)=2\nu\]
Die Dichte einer \(\chi^2\)-verteilten Zufallsvariable \(Y\) wird durch folgende Funktion abgebildet.
\[f_Y(y)=\begin{cases} \frac{1}{2^{\frac{\nu}{2}}\Gamma(\frac{\nu}{2})}y^{\frac{\nu-2}{2}}e^{-\frac{y}{2}} &;~ y>0\\ 0& ;~\mbox{sonst}\\ \end{cases}\]
Dabei steht \(\Gamma(x)\) für die Eulersche Gammafunktion: \[\Gamma(x)=\int_0^\infty t^{x-1}e^{-t} dt,~x>0.\]
Grafisch zeigt sich, dass die Dichtefunktion einer \(\chi^2\)-verteilten Zufallsvariable für kleine \(\nu\) deutlich linkssteil. Für \(\nu \geq 30\) nähert sich die Größe \(\sqrt{\chi^2}\) immer mehr einer Normalverteilung mit \(\mu=\sqrt{2\nu-1}\) und \(\sigma^2=1\) an. Mithin ist die z-standardisierte Größe \[Z=\sqrt{2\chi^2}-\sqrt{2\nu-1}\] näherungsweise standardnormalverteilt.
Für \(\nu\geq=100\) ist Z näherungsweise \(N(\nu;\sqrt{2\nu})\)-verteilt.
Das Verhältnis einer standardnormalverteilten Zufallsvariable \(Z\sim N(0;1)\) und einer \(\chi^2\)-verteilten Zufallsvariable \(Y\sim\chi^2(\nu)\) folgt einer t-Verteilung (auch: Student-Verteilung):
\[T=\frac{Z}{\sqrt{\frac{\chi^2}{\nu}}}\]
Der Erwartungswert einer t-verteilten Zufallsvariable ist für \(\nu=0\) nicht existent. Für alle \(\nu>1\) entspricht der Erwartungswert der t-verteilten Zufallsvariable dem Erwartungswert der Standardnormalverteilung: \[E(T)=0\] Die Varianz einer t-verteilten Zufallsvariable exisitiert für \(\nu>2\) und ist wie folgt definiert: \[\sigma^2(T)=\frac{\nu}{\nu-2}\]
Mithin nähert sich die Varianz der t-verteilten Zufallsvariable für \(\nu\to\infty\) der Varianz einer standardnormalverteilten Zufallsvariable an.
Die Dichtefunktion der t-Verteilung enthält wie jene der \(\chi^2\)-Verteilung die Eulersche Gammafunktion:
\[f_T(t)=\frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}\frac{1}{(1+\frac{t^2}{\nu})^\frac{\nu+1}{2}}\] Grafisch zeichnet sich die Dichtefunktion der t-Verteilung durch eine symmetrische Glockenform aus, deren Wölbung von der Zahl der Freiheitsgrade abhängt. Für kleinere \(\nu\) ist sie schwächer gewölbt als die Standardnormalverteilung - dies zeigt sich in den höheren Dichtewerten an den Rändern der Verteilung (dickere/höhere Enden, englisch: heavy tail distribution).
Die Ausführungen zu Erwartungswert und Varianz t-verteilter Zufallsvariablen lassen die enge Beziehung zur Standardnormalverteilung bereits erkennen. Tatsächlich geht die t-Verteilung für \(\nu\to\infty\) in die Standardnormalverteilung über. Die Grafik der t-Verteilung für unterschiedliche Freiheitsgrade zeigt, dass die t-Verteilung bereits für \(\nu>30\) durch die Standardnormalverteilung approximiert werden kann.
Während die t-Verteilung das Verhältnis von einer standardnormalverteilten und einer \(\chi^2\)-verteilten Zufallsvariable abbildet, folgt das Verhältnis zweier unabhängiger, \(\chi^2\)-verteilter Zufallsvariablen einer F-Verteilung.
Der Quotient zweier Zufallsvariablen \(Y_1\sim\chi^2(r_1)\) und \(Y_2\sim\chi^2(r_2)\) ist F-verteilt mit \(r_1\) und \(r_2\) Freiheitsgraden:
\[X=\frac{\frac{Y_1}{r_1}}{\frac{Y_2}{r_2}}\sim F(r_1,r_2).\]
Der Erwartungswert einer \(F(r_1,r_2)\)-verteilten Zufallsvariable \(Y_1\) hängt allein vom Freiheitsgrad der Zufallsvariable \(Y_2\) ab: \[E(X)=\frac{r_2}{r_2-2}, ~r_2>2\]
Die Varianz einer F-verteilten Zufallsvariable ist durch folgende Gleichung bestimmt:
\[Var(Y_1)=\frac{2r_2^2(r_1+r_2-2)}{r_1(r_2-2)^2(r_2-4)}, ~r_2>4\] Mit zunehmendem Freiheitsgrad konvergiert der Erwartungswert \((r_2\to\infty)\) gegen Eins, die Varianz konvergiert mit zunehmenden Freiheitsgraden \((r_1, r_2\to\infty)\) gegen Null.
Eine f-verteilte Zufallsvariable wird durch die Dichtefunktion \(f(x,r_1,r_2)\) beschrieben: \[f(x,r_1,r_2)=(r_1)^\frac{r_1}{2}(r_2)^\frac{r_2}{2}\cdot\frac{\Gamma(\frac{r_1}{2}+\frac{r_2}{2})}{\Gamma(\frac{r_1}{2})\Gamma(\frac{r_2}{2})}\frac{x^{\frac{r_1}{2}-1}}{(r_1x_1+r_2)^{\frac{r_1+r_2}{2}}};~r_1,r_2>0\] Auch im Fall der F-Verteilung hängt die Gestalt der Dichtefunktion von den Freiheitsgraden (\(r_1\) bzw. \(r_2\)) ab. Für kleine Freiheitsgrade ist die F-Verteilung deutlich rechtsschief.
Für zunehmende Freiheitsgrade kann die F-Verteilung durch die Standardnormalverteilung bzw. durch die \(\chi^2\)-Verteilung angenähert werden:
Zudem gelten für die F-verteilte Zufallsvariable folgende Beziehungen:
Im Zusammenhang mit der Charakterisierung verschiedener theoretischer Verteilungen wurde bereits darauf hingewiesen, dass diese Verteilung für hinreichend große Freiheitsgrade gegen eine Normalverteilung konvergieren.
Vielfach werden in der anwendungsbezogenen Statistik Kennzahlen betrachtet, die eine additive Verknüpfung einer großen Anzahl von (zumindest näherungsweise) identisch-verteilten und unabhängigen Zufallsvariablen darstellen. Nach dem zentralen Grenzwertsatz kann für derartige Größen eine näherungsweise Normalverteilung unterstellt werden.
In der Praxis ist die tatsächliche Wahrscheinlichkeitsverteilung einer Zufallsvariable häufig nicht bekannt. Der zentrale Grenzwertsatz (englisch: Central Limit Theorem) zeigt, unter welchen Bedingungen Wahrscheinlichkeiten dann näherungsweise mit Hilfe der Normalverteilung berechnet werden können.
Satz
Für identisch verteilte und unabhängige (diskrete oder stetige!) Zufallsvariablen \(X_1,X_2,\dots X_n\) mit Erwartungswert \(E(X_i)=\mu\) und Varianz \(\sigma^2\) ist die standardisierte Zufallsvariable \[Z_n=\frac{\sum_{i=1}^{n}X_i-n\mu}{\sigma\sqrt{n}}=\frac{n\cdot\bar{X}-n\mu}{\sqrt{n}\sigma}=\frac{\bar{X_n}-\mu}{\frac{\sigma}{\sqrt{n}}}\]
näherungsweise \(N(0;1)\)-verteilt.
Der zentrale Grenzwertsatz besagt somit, dass die Stichprobenverteilung (englisch: Sampling Distribution) des Mittelwerts einer unabhängigen Zufallsvariablen - unabhängig von der zugrunde liegenden Verteilung - normal bzw. annähernd normal ist. Wenn also wiederholt (n-mal) eine zufällige Stichprobe gezogen und für jede Ziehung der jeweilige Mittelwert berechnet wird, dann ist die Verteilung der n Mittelwerte annhähernd normalverteilt.
Für praktische Anwendungen wird die Approximation stetiger Verteilungen durch die Standardnormalverteilung für \(n>30\) als hinreichend genau angesehen. Dies kann am Beispiel der t-Verteilung grafisch dargestellt werden:
## Warning in stat_function(fun = dnorm, aes(color = "black"), n = 101, args = list(mean = 0, : All aesthetics have length 1, but the data has 2103 rows.
## ℹ Please consider using `annotate()` or provide this layer with data containing
## a single row.
Für eine Grundgesamtheit mit gleichverteilten Werten zwischen Null und 100 (links) ergibt sich gemäß dem Zentralen Grenzwertsatz bei hinreichend großen Stichproben (hier: n=30) eine normalverteilte Stichprobenverteilung (rechts).
library(patchwork) # patchwork-Paket zur gemeinsamen Darstellung zweier Diagramme
# Reproduzierbarkeit sicherstellen
set.seed(23)
# Daten einer gleichverteilten Grundgesamtheit erzeugen
pop <- runif(100000, min = 0, max = 100)
tbl_pop <- pop %>% enframe(name = "ID", value = "value")
# Dataviz Population
p <- tbl_pop %>%
ggplot(aes(x=value)) +
geom_bar(fill=ISBAblue) + scale_x_binned() +
labs(x = "Wert", y = "Häufigkeit", title = "Werte der Grundgesamtheit") +
theme_light()
# Wiederholtes (1000-faches) Ziehen von Stichproben (n=30) aus der Grundgesamtheit
# und Berechnung des jeweiligen Mittelwerts
tbl_sampdist <- replicate(1000, mean(sample(size = 30, x = pop))) %>%
as_tibble()
# Dataviz der Stichprobenverteilung
# aus (insgesamt 1000) Stichprobenmittelwerten
p2 <- tbl_sampdist %>%
ggplot(aes(x = value)) +
geom_histogram(binwidth = 0.5, color = "white", fill = ISBAblue) +
labs(x="Mittelwert",y="Häufigkeit",title='Stichprobenmittelwerte (n=30)') +
theme_minimal()
p+p2
Auch bei einer schiefen Verteilung (hier: gamma-Verteilung) der Werte in der Grundgesamtheit (links) resultiert gemäß Zentralem Grenzwertsatz eine normalverteilte Stichprobenverteilung (hier: n=100).
# Reproduzierbarkeit sicherstellen
set.seed(23)
# Daten einer gleichverteilten Grundgesamtheit erzeugen
pop_schief <- rgamma(100000, shape = 2, scale = 2)
tbl_pop <- pop_schief %>%
as_tibble()
# Dataviz Population
p <- tbl_pop %>%
ggplot(aes(x=value)) +
geom_bar(fill=ISBAblue) + scale_x_binned(breaks = seq(0,30,3)) +
labs(x = "Wert", y = "Häufigkeit", title = "Werte der Grundgesamtheit") +
theme_light()
# Wiederholtes (1000-faches) Ziehen von Stichproben (n=30) aus der Grundgesamtheit
# und Berechnung des jeweiligen Mittelwerts
tbl_sampdist <- replicate(10000, mean(sample(size = 100, x = pop_schief))) %>%
as_tibble()
# Dataviz der Stichprobenverteilung
# aus (insgesamt 1000) Stichprobenmittelwerten
p2 <- tbl_sampdist %>%
ggplot(aes(x = value)) +
geom_histogram(binwidth = 0.05, color = "white", fill = ISBAblue) +
labs(x="Mittelwert",y="Häufigkeit",title='Stichprobenmittelwerte (n=100)') +
theme_minimal()
p+p2
Der Zentrale Grenzwertsatz bezieht sich auf die Konvergenz gegen die Normalverteilung. Weitere Grenzwertsätze betrachten andere Grenzverteilungen. Beispielsweise konvergiert die Hypergeometrische Verteilung gegen die Binomialverteilung. Die Binomialverteilung wiederum konvergiert gegen die Poisson-Verteilung (vgl. dazu bspw. Schwarze (2013, S. 86ff)).
Neben der Version von Bernouilli gibt noch weitere Formulierungen von Gesetzen der großen Zahl.↩︎